我们提出了一种整体方法,用于构建一个可实现的自然语言分类系统,以实现现实世界中的内容适度。这样一个系统的成功依赖于一系列精心设计和执行的步骤,包括内容分类法和标签说明的设计,数据质量控制,主动学习管道以捕获罕见事件以及使模型可靠的各种方法并避免过度拟合。我们的审核系统经过培训,可以检测一系列不希望的内容,包括性内容,可恨的内容,暴力,自我伤害和骚扰。这种方法概括为各种不同的内容分类法,可用于创建优于现成模型的高质量内容分类器。
translated by 谷歌翻译
我们微调GPT-3使用基于文本的Web浏览环境来回答长形问题,允许模型搜索和导航Web。通过建立任务,以便通过人类执行,我们能够使用模仿学习培训在任务上的模型,然后通过人体反馈优化答案质量。为了使人为评估事实精度更容易,模型必须在浏览支持答案时收集引用。我们在ELI5上培训并评估我们的模型,Reddit用户提出的问题数据集。我们的最佳模型是通过使用行为克隆进行微调GPT-3获得的,然后对训练训练的奖励模型进行拒绝采样来获得以预测人类偏好。这种模式的答案是人类56%的答案,我们的人类示威者的时间和69%的时间到Reddit的最高投票答复。
translated by 谷歌翻译